# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

09-292991

(43) Date of publication of application: 11.11.1997

(51)Int.Cl.

GO6F 9/38

(21)Application number: 08-108814

(71)Applicant : NEC CORP

(22)Date of filing:

30.04.1996

(72)Inventor: OKAMURA ATSUSHI

# (54) INSTRUCTION PROCESSING METHOD AND INSTRUCTION PROCESSOR (57)Abstract:

PROBLEM TO BE SOLVED. To increase the issuing number of simultaneous instruction in an arithmetic processing unit by executing a basic instruction set by one by one instruction when the fetched instruction does not match with a parallel instruction set. SOLUTION: Two integer instruction units 117 and 118, a load storage instruction unit 119, a floating point unit 122 and a branch instruction unit 120 exist in a processing unit. The instruction set which is the instruction given to the arithmetic processing unit and which is equivalent to an arithmetic processing unit that cannot be dissolved much shorter is set to be basic instruction set. The instruction set obtained by combining the plural basic instruction sets is defined as the parallel instruction set. When the instruction fetched by an instruction fetch mechanism is matched with the parallel instruction set, the parallel instruction sets are simultaneously issued and processed. When the fetched instruction is not matched with the parallel instruction set, the basic instruction set is individually executed one by one.

NEET BOOK OF THE PARTY OF THE P

### (19)日本国特許庁 (JP)

# (12) 公開特許公報(A)

# (11)特許出願公開番号

# 特開平9-292991

(43)公開日 平成9年(1997)11月11日

| (51) Int.Cl.8 |      | 識別配号  | 庁内整理番号 | FΙ   |      |      | 技術表示箇所 |
|---------------|------|-------|--------|------|------|------|--------|
| G06F          | 9/38 | 3 1 0 |        | G06F | 9/38 | 310H |        |
|               |      |       |        |      |      | 310A |        |

審査請求 有 請求項の数12 OL (全 10 頁)

| (21)出願番号 | <b>特顯平8</b> -108814 | (71)出願人 | 000004237<br>日本電気株式会社<br>東京都港区芝五丁目7番1号<br>岡村 淳<br>東京都港区芝五丁目7番1号 日本電気株 |  |  |
|----------|---------------------|---------|-----------------------------------------------------------------------|--|--|
| (22) 出顧日 | 平成8年(1996)4月30日     | (72)発明者 |                                                                       |  |  |
|          |                     | (74)代理人 | 式会社内<br>弁理士 鈴木 章夫                                                     |  |  |

# (54) 【発明の名称】 命令処理方法及び命令処理装置

# (57)【要約】

【課題】 可変長命令セットをもつ命令処理装置でより多くの命令を並列フェッチし、デコードすることを可能とする。

【解決手段】 演算処理装置に与えられる命令で、それ 以上短く分解する事のできない演算処理単位に相当する 命令セットを基本命令セットとすると、この基本命令セ ットを複数組み合わせた命令セットを並列命令セットと して定義し、命令フェッチ機構によってフェッチされた 命令が、前記並列命令セットに一致した場合は、並列命 令セットを同時に発行,処理し、フェッチされた命令 が、前記並列命令セットに一致しない場合は、前記基本 命令セットを単独で1命令ずつ実行する。



#### 【特許請求の範囲】

【請求項1】 演算処理装置に与えられる命令で、それ 以上短く分解する事のできない演算処理単位に相当する 命令セットを基本命令セットとすると、前記基本命令セ ットを複数組み合わせた命令セットを並列命令セットと して定義し、命令フェッチ機構によってフェッチされた 命令が、前記並列命令セットに一致した場合は、並列命 令セットを同時に発行、処理し、前記フェッチされた命 令が、前記並列命令セットに一致しない場合は、前記基 本命令セットを単独で1命令ずつ実行することを特徴と 10 する命令処理方法。

1

【請求項2】 前記基本命令セットを、一定の順序で複 数組み合わせて任意の長さにした命令セットを並列命令 セットとして定義する請求項1の命令処理方法。

【請求項3】 前記基本命令セットを、一定の順序で複 数組み合わせて演算処理装置特有のワード長の任意倍の 長さにした命令セットを並列命令セットとして定義する 請求項1の命令処理方法。

【請求項4】 前記フェッチされた命令が、前記並列命 令セットに一致しない場合は、前記基本命令セットとし 20 て、スーパースケーラ型複数命令デコード論理を用いて 複数発行を行う請求項1または3の命令処理方法。

【請求項5】 前記基本命令セットを、その命令を処理 するユニットによって複数のグループに分割し、前記グ ループの何れか1つに属する種類の命令のみを置くこと のできる命令フィールドをスロットとした場合、前記ス ロットを複数並べた命令セットを並列命令セットとして 定義する請求項1ないし4のいずれかの命令処理方法。

【請求項6】 前記分割したグループの何れか1つに属 する種類の命令のみを置くことのできる命令フィールド 30 をスロットとした場合、前記スロットを一定の順序で複 数組み合わせて演算処理装置特有のワード長の任意倍の 長さにした命令セットを並列命令セットとして定義する 請求項5の命令処理方法。

【請求項7】 前記基本命令セットを、その命令を処理 するユニット及び命令の長さによってグループに分割す る請求項5または6の命令処理方法。

【請求項8】 前記スロットを任意の順序で並べた命令 列を並列命令セットとすると、単一の前記並列命令セッ トを構成する複数の前記スロットに含まれる基本命令 も、必ず単独で処理する請求項7の命令処理方法。

【 間 水 項 9 】 演算処理装置に与えられる命令で、それ 以上短く分解する事のできない演算処理単位に相当する 命令セットを基本命令セットとすると、前記基本命令セ ットを複数組み合わせた命令セットを並列命令セットと して定義し、命令フェッチ機構によってフェッチされた 命令が、前記並列命令セットに一致した場合は、並列命 令セットを同時に発行、処理し、前記フェッチされた命 令が、前記並列命令セットに一致しない場合は、前記基 本命令セットを単独で1命令ずつ実行することを特徴と 50

する命令処理装置。

【請求項10】 メモリ装置から命令をフェッチし、読 み込んだメモリを順に出力バスに出力する命令フェッチ 装置と、入力バスを有し、前記入力バスから一定の幅の 命令列を揮入し、挿入されたのと同じ順序で、出力バス を通して、任意の幅の命令列を読み出すことのできるF IFOメモリ装置と、1つ以上の命令をチェックする命 令列チェック装置と、発行された命令を処理、実行する 1つ以上の命令実行装置と、発行する命令列を入力する バスを有し、入力バスを通して入力された命令列を一定 のフォーマットに整形し、複数の出力バスに接続する前 記複数の実行ユニットに分配する命令分配アライン装置 を有し、前記命令フェッチ装置の命令出力バスを前記F IFOメモリ装置の入力バスに接続し、前記命令デコー ド装置を前記FIFOメモリ装置の前記出力バスから前 記命令列チェック装置の入力バス及び、命令分配アライ ン装置の入力バスに接続し、命令分配アライン装置の出 カバスに、前記複数の命令実行装置の入力に接続し、前 記命令フェッチ装置は、実行すべき命令列をフェッチと し、先に実行すべき命令から順にバスを介して前記FI FOメモリ装置に投入し、前記命令チェック装置は、前 記FIFOメモリ装置に挿入された命令列を前記FIF 0メモリ装置の命令の出口側から命令で2つ以上サイズ を含む幅でチェックし、前記2つ以上の命令が命令チェ ック装置に固有の命令列を有しているならば真を出力・ し、異なっているならば偽を出力し、命令分配アライン 装置は、複数の命令チェック装置の何れかが真を出力し ている場合は、前記FIFOメモリ装置から読み出され、 た命令列を、命令チェック装置が真を返した形式の命令 処理ネットワークを用いて分配整列し、前記命令列の含 む複数の命令を同時に前記各実行装置に前記バスを通し て転送し、前記複数の命令チェック装置のすべてが偽を 出力した場合は、前記FIFOメモリ装置から1命令分 の命令列を取り込み、前記1命令を前記各命令実行装置 の何れかに転送し実行することを特徴とする命令処理装

【 請求項 1 1 】 前記複数の命令チェック装置のすべて が偽を出力した場合は、前記FIFOメモリ装置から複 数命令分の命令列を取り込み、前記命令列を順に解析 40 し、対応する前記各命令実行装置の何れかに転送し実行 する請求項10の命令処理装置。

【請求項12】 演算処理装置に与えられる命令で、そ れ以上短く分解することのできない演算処理単位に相当 する命令セットを基本命令セットとし、前記基本命令セ ットを、一定の順序で複数組み合わせて任意の長さにし た命令セットを並列命令セットとすれば、演算処理装置 の実行する命令セットを解析する場合に、前記並列命令 セットを解析する装置と、前記基本命令セットを解析す る装置を有する請求項9ないし11のいずれかの命令処 理装置。

3

#### 【発明の詳細な説明】

[0001]

【発明の属する技術分野】本発明は命令処理方法及び命令処理装置に関する。

[0002]

【従来の技術】一般に、演算処理装置の高性能化の技術として、VLIW方式やスーパースケーラ方式がある。いずれの方式も、命令を並列に実行することによって、1クロック当たりに処理可能な命令数を増やし、高性能化を図る技術である。例えば、VLIW方式は、通常の演算処理装置に与えられる命令を小命令とし、幾つかの決まった数の前記小命令を一定の制限をもってつなげた命令群を1大命令とする。そして、前記大命令を一度に読み込み、前記大命令中の小命令を並列に処理している。VLIWのセマンティックは、同一の大命令に含まれる小命令は同時に処理されることである。

【0003】図4にVLIW命令のフォーマットの例を示す。図4の32バイト分407を1命令として読み込み同時に実行する。前記32バイトの命令を大命令とする。前記大命令は幾つかの小命令に分割され、それぞれ20の小命令が固有の命令フォーマットを持つ。同図では大命令は6個の小命令に分割され、小命令は左からロードストア命令401、ロードストア命令402、ALU命令403、ALU命令404、IMM命令405、分岐命令406が置かれている。これらの並べた命令は同時に実行されることが保証されている。ここで、ロードストア命令はメモリから演算処理装置の内部汎用レジスタにデータを転送する命令であり、ALU命令は前記内部汎用レジスタ間の演算、IMM命令はオペランドの値を汎用レジスタにセットする命令、分岐命令は次に実行す30る命令の番地を変更するものである。

【0004】このようなVLIW方式は、命令の並びかた、小命令のフィールド長が演算処理装置固有のものになるため、互換性が非常に乏しいという問題がある。すなわち、前記大命令は一度に読み込まれ処理されるため、命令列は1つの前記大命令に含まれている前記小命令が無条件に同時に実行できるように並べなければならない。もし、前記小命令間の依存関係によって小命令が同時に実行できない場合は、nop(ノーオペレーション)命令を挿入することで、一度に実行されてしまう前記大命令中の小命令の依存関係を保証する。以上のように、VLIWでは、命令コード自体が並列に実行できるように並べられる事を特徴とする。これをスタティックスケジューリングという。

【0005】一方、スーパースケーラ方式は、従来との 互換性をとった上で命令を並列に実行できるようにする 技術である。通常の演算処理装置の命令コードは、アド レスの小さなものから1つずつ実行するような規則で並 べられている。このため、、前にある命令を実行し終え てから次の命令を実行する。前にある命令の実行結果を

後で実行する命令が使用する場合がある為である。前記 結果の使用を依存関係と呼ぶ。すべての命令が前記依存 関係を有しているわけではないため、依存関係のない命 令は、先に実行してしまっても問題は発生しない。前記 したVLIW方式では、この依存関係を持たない命令を コンパイル時に前記大命令として並べ並列処理を実現し ているのに対し、スーパースケーラ方式は、命令列を実 行すべき順(プログラムオーダ)に取り込み解析し、前 記依存関係が無い命令を選びだし、先に処理をすること ができる命令の実行を前倒しして並列実行を実現する。 このような並列命令処理方式としては、特開平2-13 0635号公報に記載の複数命令同時処理方式があげら れる。この方式では、複数個の命令を同時に読み出し、 読み出された命令を複数個のデコーダで解析し、依存関 係が無い場合のみ、複数の実行手段で並列に実行する処 理方式が用いられている。

【0006】また、前記方式よりも一段階進んだスーパ ースケーラ方式の一例を図5に示す。これは、「BM社 … の I BM360/91で使用されている方法である。フェン ェッチユニット501はメモリから命令をフェッチしディ コードする。デコード結果によって命令を対応する演算 器の種類毎に分割し、もしリザベーションステーション 504,508に空きがあれば当該命令を発行する。更 に、ソースオペランドがレジスタファイル502に存在 すれば、それもリザベーションステーション504,5 08に格納する。もし空きが無いならば、フェッチユニ ット501は、命令を発行せず、空きが生ずるまで当該 命令を発行は停止する。リザベーションステーション5 04,508中に発行された命令は、ソースオペランド 👶 がそろっていない場合、共通データバス506を監視し て、対応するオペランドが前記共通データバス上に現れ るのを待つ。ソースオペランドが前記共通データバス5 06上に現れたら、その値をソースレジスタ値バス50 3経由で前記リザベーションステーション504,50 8中に書き込む。

【0007】リザベーションステーション504,508中の命令は、総てのソースオペランドが揃ったら、その命令を演算ユニット505,509に送る。演算ユニット505,509に送る。演算ユニット505,509は実行を完了したら、実行結果を共通データバス506経由でレジスタファイル502に書き込むと同時に、当該結果を待っているかもしれないリザベーションステーションに送る。以上のような機構によって、オペランドが有効でない間、命令はリザベーションステーション中でまたされ、実行できる命令から順に優先して実行する機能を提供できる。

【0008】ところで、従来のCISC型命令セットでは、命令コードの静的なサイズを小さくするために、可変長命令セットが用いられている。前記、可変長命令セットは、命令によって命令フォーマットの語長が変化する命令セットである。出現頻度の高い命令を短く、出現

頻度の低い命令を長いフォーマットにすることで、プログラムの静的なコードサイズを小さくする事ができる。このような可変長命令セットの命令コードを並列実行するために、複数命令をデコードする手順について説明する。可変長命令の命令セットをスーパースケーラ方式で、実現する場合の難しさは命令フェッチ機構にある。スーパースケーラ方式では、一度に実行ユニットに送ることが可能な命令数が多ければ多いほど並列実行の可能性も増加する。可変長命令セットを持つアーキテクチャの場合は、複数命令フェッチをする場合に命令の解析手 10順が複雑になってしまう。

【0009】現在のRISC型命令セットでは、命令は32ビット長で更に4バイトアラインされている。このため、命令の始まりの位置は、完全に固定しており、命令の解析は、この固定位置から行うことで、複数命令の並列解析が可能になる。それに対して、可変長命令の場合は、始まりの命令の位置だけが明確にわかっており、2番目の命令の始まりの位置を見つけるためには、始めの命令を解析し、始めの命令の命令サイズを特定しなければならない。つまり、可変長命令の場合は、2番目以ればならない。つまり、可変長命令の場合は、2番目以ればならない。の命令の始まりの位置が不明確で、前に実行される命令から順に解析しなければならない。解析しなければならない命令数が増大するに従って、命令の始めを見つける論理は積み重なってしまい、遅延時間が増大してしまうため速いクロックで動作する場合、多くの命令をデコードするのは困難になる。

【0010】実際に高速動作させた場合は、順番にデコードしていたのでは1クロックでデコードできる命令の数が非常に限られてくる。この命令のデコードを高速化するため、命令をキャッシュに書き込む際にプリデコー 30ドを行い始めから区切りを明確化しておく方法がある。これは、AMD社のK5と呼ばれるマイクロプロセッサが選択した方法である。K5では、メモリから命令を取り込みオンチップ・キャッシュに書き込む時点で、命令をデコードし命令の頭に対応するバイトにマークを付けている。この方法は、非常に優れた方法であるが、キャッシュにプリデコードビットを付加しなければならないことや、キャッシュのラインと分岐先アドレスの一致が必ずしもアラインされていないため、分岐時の制御が非常に難しくなってしまうなどの弊害が発生する。 40

## [0011]

【発明が解決しようとする課題】命令のスーパースケーラ型並列実行をするためには1クロッグ中に複数の命令をデコードする必要がある。通常のRISC型プロセッサでは命令コードは32ビット固定長になっており、且つ4バイトアラインされているため、複数の命令を一度に取り込み、前記複数の命令を一斉にデコードする事が可能である。しかし、可変長命令セットを処理する演算処理装置では、一度に多くの命令を取り込んでも着目している命令の種類によって、その命令以降の命令の始ま 50

りの位置が変化してしまうため、取り込んだ多くの命令を並列にデコードする事ができず、1つずつ順々にデコードしなければならない。その結果、同時実行する多数の命令を髙速にデコードする事が困難となる。

【0012】本発明の目的は、可変長命令セットを有する演算処理装置の同時命令発行の発行数を大きくすることが可能な命令処理方法と命令処理装置を提供することにある。

## [0013]

【課題を解決するための手段】本発明は、演算処理装置に与えられる命令で、それ以上短く分解する事のできない演算処理単位に相当する命令セットを基本命令セットとすると、前記基本命令セットを複数組み合わせた命令セットを並列命令セットとして定義し、命令フェッチ機構によってフェッチされた命令が、前記並列命令セットに一致した場合は、並列命令セットを同時に発行、処理し、前記フェッチされた命令が、前記並列命令セットに一致しない場合は、前記基本命令セットを単独で1命令ずつ実行することを特徴とする。

#### [0014]

【発明の実施の形態】次に、本発明の実施形態を図面を参照して説明する。図1は本発明の実施形態の装置のブロック図であり、図2は本発明の実施形態で説明する演算処理装置の命令セットの命令長201~204と複数発行時の命令の並列命令形式205~211を示す。2~01~204の命令を以下基本命令セットと呼ぶ。前記基本命令セットは、本演算処理装置の命令セットレベルアーキテクチャが提供するそれ以上分解されないアトミックな命令である。本実施形態では、基本命令は命令の種類によって1~4バイトの命令長を持つ。図3に各基本命令セットの命令が、どの処理グループに属するかでの分類を示す。処理グループとは、当該命令がいかなる処理ユニットで処理され得るかを基準にしたグループである。

【0015】前記処理ユニットは図1に示すように、2 つの整数命令ユニット117,118と、ロードストア 命令ユニット119と、浮動小数点ユニット122と、 分岐命令ユニット120とが存在する。このため、前記 処理グループは、整数演算グループ、ロードストアグル 40 ープ、浮動小数点グループ、分岐グループ、その他グル ープの5グループに分割される。すべての基本命令は、 命令の長さによる区分と命令を処理するユニットによる 区分で細分化される。複数の命令を発行する場合は、図 2の205~211に示すType1~7のフォーマッ トにフェッチされた命令が並んでいることを必要とす る。このフォーマットを以下並列命令セットと呼ぶ。本 実施形態では、並列命令セットは基本命令セットを組み 合わせて、決まった長さになるように、かつ、その命令 の前記処理グループごとに順序を決めて制限を設けた形 式になっている。本実施形態では、7種類の並列命令セ ットを定義する。

【0016】 Туре 1 の並列命令セットは、1パイト 命令の整数演算命令、1パイト命令の整数演算命令、2 バイト命令のロードストア命令をつなげたものになる。 また、Type2の並列命令セットは、1バイト命令の 整数演算命令、2パイト命令の浮動小数点命令又はロー ドストア命令、1バイト命令の整数演算命令又はJR命 令をつなげたものである。以下、Type 3の並列命令 セットは、1バイト命令の整数演算命令、3バイト命令 の整数演算命令又は分岐命令をつなげたもの、Type 4の並列命令セットは、4パイト命令のロードストア命 令、1バイト命令の整数演算命令、2バイト命令の浮動 小数点演算命令、1パイト命令の整数演算命令又はJR (レジスタ間接分岐) 命令をつなげたもの、Type 5 の並列命令セットは、2バイトの整数演算命令、2バイ トのロードストア命令、2バイトの浮動小数点演算命令 をつなげたもの、Type6の並列命令セットは、2バ イトの整数演算命令、2パイトの整数演算命令、4パイ トのロードストア命令又は分岐命令つなげたもの、Ty pe7の並列命令セットは、4バイトの整数演算命令、 4バイトのロードストア命令又は分岐命令をつなげたも のになっている。

【0017】以上のように並列に実行される命令セット は、いくつかのテンプレートをもっており、テンプレー トにマッチした場合のみ複数命令が発行される。もし、 命令列がテンプレートにマッチしていない場合は、命令 列は、1つずつ順々に発行される。この方式を、テンプ レート方式命令発行と呼ぶ。図1のブロック図は、前記 テンプレート方式命令発行を行うための処理機構を示し てある。命令フェッテユニット101は、メモリ装置か ら実行すべき命令列を取り込む。前記実行すべき命令列 は、命令FIFO102に入れられる。この命令FIF 0102は、先に実行すべき命令から順に向かって右側 から入れられる。命令FIFO中の命令は命令の発行処 理が行われたものから順次、左側から取り除かれ、その 分だけ命令FIFOの中の命令は左側方向にシフトして いく。FIFOの中には、左側に行くほど先に実行すべ き命令になるように保たれる。FIFOの中に次の命令 を入れられる空間ができたら、命令フェッチユニット1 01は新しくフェッチした命令を挿入する。

【0018】命令FIFO102の左側、即ちもっとも 先に実行すべき命令が入っている4バイト分を4バイト サイズの命令として、並列命令チェック論理103,1 04,105に接続する。また、命令FIFOメモリ1 02の左側から8パイトサイズの命令を、並列命令チェ ック論理106, 107, 108, 109に接続する。 前記並列命令チェック論理は、論理103がType1 の命令のチェックをし、論理104がType2の命令 のチェックをし、論理105がType3の命令の形式 のチェックを受け持つ。同様に、8パイトサイズの並列 50 命令に関しては、論理106がType4の命令の形式 を、論理107がType5の命令の形式を、論理10 8 が T y p e 6 の命令の形式を、そして、論理 1 0 9 が Type7の命令の形式をチェックする。

【0019】命令のチェック論理は、入力されたバイト 列に自分がデコードすべき命令列にあっているかどうか を判定し、もし、前記制限に対応できるような命令列に なっていたら命令アライナ112に対して真を出力す る。図7に命令チェック論理を示す。図7は、Type 4の命令をチェックする論理をプロックで示したもので ある。FIFO102の左側から8バイトのデータを供 給される。チェック機構は、703~706の論理にな る。703の論理は、4バイト形式のロードストア命令 をデコードし真を出力する。それ以外が来た場合は偽を 出力する。以下、704は5バイト目から始まるはずの 1パイト長の整数命令を、705は6パイト目から始ま るはずの2バイト長の浮動小数点命令を、706は8バ イト目から始まるはずの1バイト長レジスタ間接分岐命 令(JR)か整数演算命令をデコードし、合っていれば 真を出力する。これらすべてのデコーダが真を出力した。 場合に論理和回路707によってすべての真をチェック・ し命令がフォーマットに合っていることが確認される。 【0020】図中では、701にマッチしない命令の場 合、702にマッチする命令の場合を示す。フォーマッ ト701の命令が入力されると1バイト目にあるデコー ダ703は、ロードストア命令ではないので偽を出力す る。デコーダ704と706は、命令の途中をデコード してしまうため、正しいデコード結果を得ることができ ない。オペランドの値如何によっては真を返すこともあ る。しかし、デコーダ703が偽を出力しているため出 カ708には偽が出力される。フォーマット702が入

【0021】図1で、103~109の並列命令チェッ ク論理の何れかから真の出力がでてくれば、命令は並列 タイプとして発行され、どれも真にならない場合は1命 令ずつ処理する。デコーダ121はFIFO102の最 も左側の命令をデコードし命令のサイズ及び命令の処理 グループを決定し、命令アライナ112にその結果を送 る。図8に命令アライナ112の内部ブロックを示す。 本実施形態の命令アライナはすべての命令列を処理でき るようにした場合に比べて非常に簡単である。本実施形 態では、7タイプの命令をそれぞれ並べ替えるネットワ ークを実装すればよいためである。

力された場合は、すべてのチェック回路703~706

が真を出力する事になり、出力708には真が出力された。

【0022】図8では、834は図1のFIF0102 の左側から8バイト分に相当する。FIFOに投入され た命令の中で、最も始めに発行すべき8パイトを並べ替 えることになる。同図中で、809は命令が何れのテン プレートにもマッチしない場合のアライナである。図1

のデコーダ121で命令のサイズをデコードし、そのサイズに応じて命令アライナ809でアライン処理を行う。1命令だけをデコードする回路になるため、従来のパイプライン型と同様な構成で実現できる。図8で、810~818は命令のバイトを接続し、一定のフォーマットに整形する回路である。また、819から823は、複数命令発行時の各ユニットに発行する命令を選択するセレクタである。824から828は、複数命令が発行できない場合に、単独な命令として処理する場合に、単独命令を整形するユニット809からの出力と選10択を行うセレクタである。

【0023】図8中では、810は2バイト命令を整形する回路になる。図2からも明らかであるが、テンプレートにマッチする限り、命令の第1バイト目と命令の第2バイト目は、2バイト形式の整数命令しか現れない。このため、整形回路810の出力は整数演算ユニット1に投入する命令を選択するためのセレクタ819に接続される。セレクタ819では、Type5か又はType6の命令がデコーダで判定された場合の処理の為に整形回路819の出力を整数ユニット1に対して接続する。

【0024】さらに、図8の811は、FIFOの第1 バイト目から第4バイト目までの4バイト命令を整形す る整形回路で、Type4とType7で使用される。 TVpe4では、ロードストア命令であるため、ロード ストア処理ユニット831に接続されるような動作を行 い、Type7が検出された場合は、整数演算ユニット 829に接続される様に動作する。以下、812はTy pe 2の浮動小数点命令かロードストア命令、813は Type 5/6の整数演算又はType 1のロードスト ア命令、814はType3の整数か分岐命令、815 はType5のロードストア命令、816はType4 の浮動小数点命令、817はType5の浮動小数点命 令、818はType6/Type7のロードストア命 令か分岐命令のフォーマット整形を行う。フォーマット 整形を完了した命令群は、セレクタ819~823でT ype毎に選択され演算処理ユニット829~833に 転送される。発行される命令列は、実装される演算ユニ ットを考慮に入れて決定されているため、命令チェック 論理でチェックされた命令列は無条件に各ユニットに発 行してよい。

【0025】以上の各実施形態から明らかにように、この命令処理方式では、クロック周波数が高くなった場合でも可変長命令セットを有する演算処理装置の同時命令発行の発行数を非常に大きくすることができる。図7にあるように、可変長命令の場合でも、注目するビットだけをデコードすれば、前から順にデコードしたのと同じ効果を得ることができ、この方法では命令の区切りを求める必要がない。そのため、図7の例で示せば、デコード回路の部分では、1命令ずつのデコードに対して、750

07の論理積ゲート分の遅延が増加するだけである。また、命令のアライン部分も図8に示すように、完全なクロスパ型から比べて簡単になっている。このため、バイト可変長命令セットを持つ演算処理装置で、完全な対象型の命令発行方式をとった場合、本発明の方式によれば、同程度の条件で非常に多くの命令の発行が可能になる。これは、可変長命令のデコードは前から顧に行わなければならない決まりを取り除くことができるためである。

#### [0026]

【発明の効果】以上説明したように本発明は、全ての命令を解析するのではなく、実際のプログラム中で頻出する命令の組み合わせを並列に実行される命令のテンプレートとして、前記命令の組み合わせに適合するか同化のタイプチェック機能をデコーダに組み込み、その命令のテンプレートに一致した命令は同時に多くの命令を発行することができるようにし、一致しない場合は同時の発行数を減らした通常のデコーダで処理するようにすることにより、高性能な命令処理が実現できる。特に、可変長命令を複数組み合わせることで、固定長に組み直すことも可能になるため、命令フェッチ機構全体の簡略化が実現できる。

#### 【図面の簡単な説明】

【図1】本発明にかかるテンプレート発行方式のブロック図である。

【図2】基本命令,並列命令の典型的なフォーマット図である。

【図3】基本命令のバイト数と処理ユニットの分類を示 ) す図である。

【図4】基本的なVLIW命令のフォーマット図である。

- 【図5】スーパースケーラ処理ユニットの図である。
- 【図6】 FIFOユニットの構成図である。
- 【図7】命令チェック論理を示す図である。
- 【図8】命令分配アライン装置を示す図である。

## 【符号の説明】

- 101 命令フェッチ機構
- 102 FIFO装置
- 103~109 命令チェック機構
  - 110 8パイト命令転送バス
  - 111 4パイト命令転送パス
  - 112 命令分配アライン装置
  - 113 整数命令発行バス
  - 114 整数命令発行第2バス
  - 115 ロードストア命令発行バス
  - 116 分岐命令発行バス
  - 117,118 整数演算命令実行ユニット
  - 119 ロードストア命令実行ユニット
  - 120 分岐命令実行ユニット

12

11

121 単独命令デコードユニット

122 浮動小数点命令実行ユニット

\*123 浮動小数点演算命令発行バス

\*

【図1】



【図3】

1パイト命令 整数演算命令 JR命令
2パイト命令 整数演算命令 浮動小数点命令 ロードストア命令
3パイト命令 整数演算命令 分岐命令
4パイト命令 整数演算命令 分岐命令 ロードストア命令 特殊命令





14

• ; •





【図8】

